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摘 要 : 针对 海量 论文 数据 导致 的 应 用 效率 低下 问题 ， 提 出 一 个 基于 层次 混合 模型 的 推荐 算法 WSVD++。 该 模型 根据 
学 术 论 文良 好 的 结构 特征 ， 构 建 一 个 加 权 的 论文 二 部 图 模型 。 首 先 对 论文 进行 特征 提取 ， 按 不 同 特征 的 权重 构建 论文 
的 复合 关系 图 ; 其 次 对 关系 图 采用 一 种 改进 的 PPR 算法 ， 计 算 每 篇 论文 的 重要 程度 ， 依 此 来 对 用 户 一 论文 关系 进行 加 
权 ; 然后 在 构建 好 的 加 权 二 部 图 模型 上 混合 SVD++ 图 算法 进行 推荐 。 实 验 结果 表明 ,改善 了 推荐 算法 学 术 论 文 的 推荐 
效果 ， 并 且 基 于 分 布 式 图 计算 框架 GraphX， 扩 展 性 好 ， 适 合 大 数据 处 理 。 
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Academic paper recommendation based on distributed graph 
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China) 


Abstract: Aiming at the low efficiency caused by massive academic paper data, this paper proposed a recommendation 


algorithm method based on the hierarchical mixed model named WSVD++. According to the structural features of academic 


papers, the model constructs a weighted bipartite graph model. Firstly, this method extracted the features of each paper and 
constructs the composite relation graph according to the ratio of different features. Secondly, it uses an improved PPR algorithm 
on the graph to calculate the importance weight of each paper, and then weighs the relation between the user and the paper. 


Finally, it recommend on the weighted bipartite graph by using SVD++ graph algorithm. The result shows that the proposed 


algorithm improves the recommended accuracy. The whole process implemented in distributed graph calculation system, that 
means the method has good expansibility and is suitable for big data processing. 


一 Key words: hybrid model; collaborative filtering; SVD++; distributed graph computation; GraphX 


(OCCF) B]， 对 于 传统 推荐 技术 很 难 直接 应 用 。 文 献 [4] 通 过 引 
入 权威 作者 等 论文 信息 来 深化 用 户 的 兴趣 模型 从 而 推荐 高 质量 

学 术 论 文 作为 学 术 思 想 传 播 的 载体 ， 在 信息 爆炸 的 时 代 中 论文。 文献 [5] 利 用 主题 关系 提取 用 户 和 论文 的 主题 模型 从 而 组 
同样 存在 数据 指数 增长 的 问题 。 据 DBLPU 统 计 ， 自 2010 年 以 ” 解 冷 启动 问题 。 论 文 的 数据 结构 不 同 于 一 般 推荐 的 项 目 ， 通 常 
来 每 年 平均 有 超过 32.7 万 篇 论文 发 表 ， 平 均 每 年 环比 增长 ” ”为 非 结构 化 或 半 结 构 化 的 数据 ， 因 此 采用 图 模型 的 结构 可 以 对 
5.56%, 每 年 在 期 刊 和 会 议 发 表 的 论文 数量 相当 庞大 。 近 年 来 检 丰富 的 信息 进行 建 模 铅 ， 从 而 更 好 的 表达 论文 关系 。 文 献 [7] 通 
索 系 统 性 能 的 提升 ， 减 轻 了 科研 工作 者 查找 学 术 论 文 的 工作 。 过 共 引 分 析 提 出 基于 DBSCAN 的 密度 聚 类 算法 来 找到 相近 论 
但 是 面 对 会 议和 期 刊 每 年 产生 的 海量 数据 ， 论 文 检 索 系 统 已 经 文 。 文 献 [8] 通 过 对 比 不 同 算法 应 用 到 图 模型 中 的 表现 ， 引 入 论 
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不 能 满足 科研 工作 者 的 需求 。 对 此 ， 学 术 论文 推荐 系统 可 以 解 ” 文 的 引文 和 内 容 信息 提出 了 一 种 异 构图 推荐 方法 。 面 对 海量 增 

决 这 个 问题 中 。 长 的 数据 ， 大 规模 的 图 计算 的 任务 处 理 是 至 关 重 要 的 外， 对 于 
在 推荐 算法 领域 , 受到 Netflix 和 KDD Cup 等 竞赛 的 推动 ， 海量 增长 论文 推荐 同样 亟待 解决 的 问题 。 

协同 过 滤 等 推荐 算法 得 到 了 人 们 的 普遍 关注 并 取得 了 很 大 的 进 在 本 文中 ， 对 于 论文 的 结构 特征 和 OCCF 导致 的 推荐 算法 


展 。 而 学 术 推 荐 应 用 领域 ， 仅 在 CiteULike，ResearchGate 等 文 难以 直接 应 用 的 问题 ， 提 出 一 种 基于 分 布 式 图 计算 的 论文 推荐 
大 管理 网 站 中 有 所 涉及 。 论 文 推荐 属于 一 类 协同 过 滤 问 题 ”方法 。 
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1 ”相关 算法 介绍 


1.1 基于 内 容 的 协同 过 滤 

论文 推荐 常 采 用 基于 内 容 的 协同 过 滤 算 法 00。 给 定 
合 T， 通 过 用 户 4 已 经 操作 的 论文 ie7 来 确定 带 有 共同 特点 的 
候选 论文 六 。 首 先 计算 论文 上 中 每 个 词 项 t 的 加 权 词 频道 文档 
频率 ( wf -idf, )， 如 式 〈1) 所 示 。 


xd 


wf-idf, =(1+log 矿 ) .log (1) 


其 中 : 术 表示 1+ 在 论文 中 的 频率 , N(?) 表 


然后 通过 论文 之 间 的 相似 度 关系 来 计算 六 。 如 式 (2) 所 示 。 
六 = Why 
a © 


其 中 : R(u) 表示 包含 用 户 4 评分 的 所 有 物品 集合 ，S(i,K) 表 示 
和 论文 i 最 接近 的 个 论文 的 集合 ， 表示 论文 i 和 论文 /的 
余弦 相似 度 ， 如 下 所 示 : 


1.2 基于 模型 的 协同 过 滤 
基于 模型 的 协同 过 滤 是 构建 隐语 义 模型 (LFM) DJ， 将 ) 
户 和 论文 映射 到 一 个 维 数 为 f 的 低 维 联合 语义 空间 中 。 在 LFM 
中 ， 用 户 特征 向 量 和 论文 特征 向 量 的 内 积 来 反映 用 户 的 兴趣 程 
度 ， 即 大 = 多 记 。 其 中 尺 sR' 和 gq;e R’ 分 别 表示 用 户 和 论文 
的 隐 因 子 向 量 。 
通过 基准 预测 和 隐 式 反馈 


言 息 可 以 增加 预测 准确 度 ， 即 在 


表示 上 在 7 中 出 现 的 次 数 。 


户 间 或 论文 间 的 直接 关系 。 如 论文 间 的 引用 关系 是 一 种 类 似 于 
页 链接 关系 的 有 价值 信息 。 若 论文 存在 引用 关系 ， 则 它们 之 
间 的 紧密 程度 会 强 于 其 他 论文 。 对 于 追 本 溯源 的 用 户 ， 引 用 关 
系 可 以 体现 特定 领域 在 不 同 阶段 的 研究 状况 。 
1.3.2 基于 图 模型 的 PPR 算法 

Personal PageRank (PPR) 算法 是 PageRank 算法 应 用 到 推 
荐 的 一 种 改进 算法 ， 以 目标 用 户 为 出 发 点 ， 在 论文 顶点 和 用 户 
顶点 之 间 随 机 游 走 中 。 游 走 过 程 会 按 概率 4 跳 到 下 一 步 ， 


习 


从 


多 次 游 走 后 收敛 ,最 终 ,候选 推荐 的 论文 通过 权重 扩散 来 计算 : 
PR(7 
Pr)=4r+0-) 全 而 


其 中 : C(i) 表示 与 顶点 i 连接 的 顶点 集合 ,deg (让 表示 顶点 站 的 
出 度 (degree )。r 表示 偏好 向 量 取 0 或 1， 当 顶点 i 为 用 户 顶 点 
vu 时 7 为 1。 
1.4 分 布 式 图 计算 

随 着 图 结构 数据 的 规模 和 分 布 式 图 计算 的 重要 性 不 断 增加 ， 
出 现 了 一 系列 图 形 分 布 式 系统 , 如 Pregel、GraphLab 和 GraphX 
等 。 分 布 式 图 计算 是 由 一 个 稀疏 图 G(V,E) 和 一 个 在 每 个 顶点 
veV 上 并 行 执行 的 顶点 程序 Q 组 成 ， 每 个 顶点 v 同时 被 实例 
化 为 Q(V) 并 且 可 以 通过 消息 (Pregel) 或 共享 状态 (GraphLab， 
GraphX ) 与 相 邻 的 顶点 程序 交互 09。 分 布 式 图 计算 系统 抽象 地 
约束 了 顶点 程序 与 图 形 结构 的 交互 ， 从 而 实现 了 数据 布局 和 通 
信 的 优化 。 顶 点 程序 C(y) 可 以 读 取 和 修改 顶点 v 的 属性 以 及 相 
邻 边 e 上 的 属性 ， 甚 至 在 某 些 情况 下 可 以 修改 邻接 顶点 上 的 属 
性 。 


tt 


LFM 模型 中 加 入 偏 置 项 bs = 4+b,+b 和 带 隐 式 反馈 的 用 户 攻 


‘二 

子 向 量 P,+|R(w)| 3》 yy。 这 种 方法 称 为 SVD++ 模 型 9, 如 式 
ieR(u) 

(3) 所 示 。 


1 (3) 
其 中 :KW 为 总 体 平均 分 ，b, 和 4 分别 表 示 用 户 w 和 论文 i 与 人 的 


buth rota ,lao) 


2 ”基于 图 模型 的 论文 推荐 算法 


本 文 提出 一 种 基于 分 布 式 图 模型 的 学 术 论 文 推 荐 算法 。 基 
本 思想 如 下 : a) 首先 构建 论文 两 层 关系 图 。 对 论文 内 容 进行 特 
征 提取 ， 包 括 题目 、 摘 要 、 引 用 关系 ， 分 别 构建 三 个 论文 属性 
关系 图 ; 根据 特征 按 不 同 权 值 比例 合并 图 ， 并 在 合并 的 论文 关 
系 图 中 计算 论文 的 重要 程度 b) 构建 用 户 -论文 两 层 图 。 用 户 


偏差 。 y; e R' 表示 论文 i 的 偏 置 向 量 ， 表 示 论 文 i 与 其 他 论文 
的 误差 。 

1.3 ”基于 图 模型 的 推荐 

图 模型 以 几何 方式 展现 数据 关系 ， 不 仅 可 以 通过 信息 传递 
计算 直接 连接 的 顶点 关系 ， 也 可 以 计算 非 直接 连接 的 顶点 间 的 
影响 031]。 对 于 直接 连接 的 顶点 ， 边 的 权重 越 大 ， 顶 点 的 关系 越 
密切 。 基 于 图 模型 的 推荐 是 通过 数据 建立 图 模型 ， 然 后 在 图 上 
驱动 推荐 算法 产生 候选 推荐 。 

1.3.1 论文 关系 图 构建 


屋 和 论文 层 之 间 边 的 初始 权 值 为 用 户 对 论文 的 操作 记录 ， 但 
于 用 户 的 行为 数据 只 有 操作 和 未 操作 两 种 情况 ， 很 难 表 达 用 户 
对 论文 的 偏好 ， 因 此 利用 论文 内 容 属性 信息 ， 根 据 论 文 的 重要 
程度 对 用 户 和 论文 的 关系 进行 加 强 ; c) 得 到 融合 内 容 和 操作 信 
息 的 二 部 图 模型 ， 利 用 图 模型 进行 论文 推荐 。 以 上 图 模型 的 构 
建 和 计算 均 采 用 分 布 式 的 图 操作 。 
2.1 图 操作 定义 

图 操作 包括 图 的 构建 (makeG)、 图 顶点 和 边 的 属性 更 改 
图 和 图 的 合并 (mergeG)， 外 部 


(mapVertices 和 mapEdges)、 


论文 图 模型 和 


储 荐 考虑 两 种 直接 关系 来 计算 间接 关系 5 。 
种 是 用 户 和 论文 的 直接 关系 ， 将 用 户 论文 关系 数据 表示 为 一 个 


信息 融合 〈JoinVertices) 以 及 图 上 消息 传递 (aggregateMsgs )。 
根据 GraphX 框架 ， 这 里 针对 本 算法 给 出 几 种 重要 的 操作 函数 


加 


二 部 图 G(V,E) , 其 中 V= 用 户 顶 点 集合 WV, 和 论文 顶 
点 集合 组 成 V 。 E=(V,,V,,R) ， 表 示 用 户 4 对 论文 i 的 评分 7， 
每 条 边 e 都 对 应 用 户 行为 数据 中 的 三 元 组 (ui,r) 。 另 一 种 是 用 


V, UV, 


定义 。 
定义 1 makeG。 输 入 三 元 组 数据 建立 不 可 变 的 图 的 索引 
结构 Graph[V,E]。 其 中 V 是 Vertex [Vid，Vattr] 的 缩写 ， 由 顶点 
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索引 这 和 顶点 属性 构成 ，E 是 Edge [Vid, Vid, Eattr] 的 缩写 ， 由 
源 项 点 id、 目 标 顶 点 id 以 及 边 属性 构成 。Graph 结构 可 以 表示 
成 EdgeTriplet[V,E] 的 三 元 组 形式 ， 即 ((srcld, srcAttr),(dstId, 
dstAttr), Eattr)。 


eattr 


图 1 图 模型 的 索引 结构 


定义 2 mapVertices 和 mapEdges。 两 个 函数 分 别 可 以 对 应 
的 修改 Graph 中 的 Vattr 和 Eattr， 并 返回 一 个 修改 后 的 Graph。 

定义 3 mergeG 和 外 部 信息 融合 JoinVertices。mergeG 函 
数 要 求 输入 两 个 Graph 和 权 值 , 将 两 个 Graph 中 对 应 的 Eattr 按 
权 值 合并 , 顶点 间 无 连接 的 边 Eattr = 0 , 最 后 返回 合 
JoinVertices 可 以 使 当前 图 接 入 外 部 Vertex 信息 ， 首 先 按照 Vid 
进行 连接 ， 然 后 将 两 个 被 连接 顶点 的 Vattr 进行 mapVertices 操 
作 ， 最 后 将 连接 后 的 V、 未 连接 V 以 及 E 构成 的 图 作为 返回 。 

定义 4 aggregateMsgs 函数 。 该 函数 接受 sendMsg， 
mergeMsg 两 个 函数 作为 参数 。 其 中 sendMsg 以 边 为 输入 ， 对 
于 图 中 每 条 边 , 可 以 选择 向 源 顶 点 (toSrc ) 或 目标 顶点 (toDst) 
发 送 一 个 “消息 ” (Message)。mergeMsg 函数 将 每 个 顶点 接收 到 
的 “消息 ”进行 聚集 ， 并 将 结果 mapVertices 到 相应 的 顶点 Vattr 
上 ， 最 后 返回 顶点 集合 V。 
2.2 论文 关系 图 

从 原始 数据 中 分 别提 取 题 目 、 摘 要 和 引用 关系 三 个 论文 的 
内 容 特 征 , 并 对 题目 和 摘要 进行 tfidf 加 权 处 理 。 然后 分 别 计算 
三 个 特征 下 论文 之 间 的 余弦 相似 度 , 并 用 makeG 构建 三 个 论文 
关系 图 abGraph、tiGrap 和 ciGraph。 图 中 顶点 为 论文 ， 边 的 权 
值 用 余弦 相似 度 表示 。 之 后 用 mergeG 按 权 值 合 并 构建 加 权 的 
论文 关系 图 tacGraph。 
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图 2 构建 论文 关系 图 


2.3 加权 的 用 户 -论文 关系 图 

于 论文 层 中 论文 以 相似 度 来 表示 关系 程度 ， 本 文 对 PPR 
算法 进行 改进 ， 加 入 论文 相似 度 来 计算 论文 重要 
(4) 给 定 概率 d 作为 抑制 因子 ， 对 于 顶点 i 的 重要 程度 计算 公 


的 Graph。 


潘 ” 峰 ， 等 : 基于 分 布 式 图 计算 的 学 术 论文 推荐 算法 
式 为 
W(i)=d:r+(1-4d). > w; (5) 
i'eC(i) 
[ 
= 天 (人 
用 (0) 


其 中 ，ei 表示 顶点 i 与 i 关系 的 权 值 。 
根据 式 (5)， 在 论文 关系 图 中 可 以 找到 比较 重要 的 论文 ， 
即 WGQ) 值 较 高 的 论文 。 该 图 算法 如 下 : 


Algorithm 1: 论文 图 重要 程度 计算 


Input: tacGraph, IterMax, d 
1 W(i)= qd 
2 While i < IterMax 
VerticesWithW < tacGraph aggregateMsgs ( 
sendMsg: toDst( Ww ) 
mergeMsg: MsgSum = DN )//according Equation 6 
newtacGraph < tacGraph JoinVertices(VerticesWithw) 
newtacGraph mapVertices (W(dst)) //according Equation 5 
Output: newtacGraph 
利用 用 户 对 论文 的 行为 数据 转换 为 用 户 -论文 关系 图 
uiGraph， 与 tac。 并 根据 Algorithml 得 到 新 的 论文 关系 图 
newtacGraph。 然 后 用 newtacGraph 图 中 论文 顶点 的 重要 程度 
WO 替换 uiGraph 图 中 论文 顶点 的 Vattr。 最 后 对 uiGraph 图 中 
的 边 Eattr 进行 加 强 处 理 ， 即 进行 mapEdges ( Eattr 二 W(i) ) 
操作 ， 得 到 新 的 二 部 图 WGraph。 


(a) 融 合 论文 特征 的 用 户 -论文 两 层 图 
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(0) 将 论文 节点 权 值 传递 给 边 后 的 二 部 图 
图 3 图 模型 的 构建 过 程 


2.4 基于 分 布 式 图 模型 的 SVD++ 算 法 
式 (3) 中 的 参数 是 通过 采用 随机 梯度 下 降 法 (SGD) 进行 
优化 ， 损 失 函 数 用 最 小 化 相关 联 的 正则 化 平方 函数 (SSE)， 如 


chinaXx iv 合作 期 刊 
录用 入 洛 “ 活 ， 等 ， 苦于 分 丸 图 放 愉 的 全 录 地 寺 失 掉 汪 


式 (6) 所 示 。 其 中 ,ei = 太一 方 ， 常 量 4， 罗 控 制 正则 化 程度 。 


3 ”实验 结果 与 分 析 


et 
SS 2 /7 31 实验 数据 与 环境 
is yD bp 本 文 使 用 CiteULike 网 站 开源 的 数据 集 ， 原 始 数 据 包 括 
a) 5551 名 用 户 、16980 篇 文章 和 204986 条 行为 数据 。 本 文选 取 其 
迭代 过 程 每 步 更 新 如 下 。 中 稠密 部 分 ， 并 在 数据 集中 抹 掉 20% 的 用 户 的 一 半 操 作 记 录 ， 
Wo 以 此 作为 训练 集 ， 抹 掉 的 数据 为 测试 集 ， 如 表 1 所 示 。 
updateBi=y "(es -hb;) 表 1 训练 集 和 测试 人 
iar po | 2 户 数 论文 数 记录 数 
jeR() (8) 训练 集 848 1921 36215 
updateP = ye q; ~ hp,) 测试 集 173 1921 2596 
updateY -re Raj “g; -| ,Vie R(u) 


实验 环境 选择 小 型 Spark 集群 ， 该 集群 包括 4 个 节点 。 每 


其 中 ，y 为 步 长 。 本 文 设置 参数 值 为 y=0.007 ， 丸 =0.005 ， 个 节点 CPU 型 号 为 E3-1230v5， 内 存 为 6GB。 
4 =0.015 0。 并且 夫 代 过 程 设置 衰减 因子 4 (71, 使 每 一 次 迭代 3.2 评价 标准 
的 步 长 减少 ， 在 30 次 后 收敛 。 由 于 论文 推荐 属于 OCCF， 本 文选 取 准 确 率 (Precision)、 
Algorithm 2: SVD++ 图 法 召回 率 (Recall)、F 值 和 和 履 盖 率 (Coverage) 对 混合 模型 进行 评 
Input: WGraph, f , IterMax 估 。 在 测试 集中 ， 计 算 模 型 推荐 的 候选 论文 集合 与 用 户 实际 操 
1 Y=0.007, N=0.005, =0.015 //Initialize 作 的 论文 集合 的 交集 作为 正确 的 候选 论文 。 
推荐 列表 长 度 为 M 的 准确 率 和 召回 率 定义 为 : 


2 svdGraph mapVertices( vattr ={h,b,b =0,y=0|k,k, eR’) ) 


reeeon@ 浊 |preset Mtestset| 
//Initialize Vattr |testset| 
3 Calculate mean //the average of Vattr Recal @M [2 Oested| 
4 While i < IterMax preset| 
Sumy <— WGraph aggregateMsgs ( F 值 又 称 为 F-score,， 是 IR( 信 息 检索 ) 中 常用 的 一 个 评价 
sendMsg: tosrc (Msg= dst.k, )， 标准 ， 计 算 如 下 ， 通 常 取 a=1。 
mergeMsg : MsgSum = > Msg ) (1+@’ )Precisionx Recall 
svdGraph JoinVertices(Sumy) c2x Precision + Recall 
svdGraph mapVertices( {ki,k, = MsgSum,b, y} ) 覆盖 率 测量 的 是 推荐 系统 推荐 给 所 有 用 户 的 物品 数 占 总 物 
//Initialize yi 品 数 的 比例 ， 如 公式 所 示 。 
update < svdGraph aggregateMsgs( 
Calculate fF, updateP ， updateO ， updateY ， Coveraee -looR (| 
updateBu , updateBi //according Equation 3, 8 中 
sendMsg: 3.3 ”实验 结果 分 析 
toSrc 对 于 摘要 、 题 目 和 参考 文献 的 权重 (wj 、w，、w3a )， 调 节 
( {Msg1 =updateP, Msg2 =updateY, Msg3 =updateBu} ) 不 同 的 分 配 会 影响 推荐 的 结果 ， 如 图 4 所 示 。 其 中 ， 将 非 分 配 
toDst 权重 情况 下 ( 既 1:1:1) 作为 对 比 参考 。 
( {Msg1=updateQ, Msg2 =updateY, Msg3 = updateBi} ) 从 图 中 可 以 看 出 ， 论 文 数据 的 摘要 和 引用 关系 特征 对 推荐 
mergeMseg: 结果 的 影响 较为 明显 ， 都 高 于 非 分 配 权重 情况 。 因 此 ， 根 据 调 
( {Msglsum = >Msg1,Msg2sum=>Msg2, Msg3sum = >Msg3)} ) 节 的 曲线 , 本 文 实验 选择 摘要 、 题目 和 引用 关系 的 权 值 为 0.3、 
svdGraph JoinVertices( update ) 0.2 和 0.5。 
svdGraph 对 于 式 〈5)， 使 用 不 同 的 抑制 因子 对 于 结果 会 有 不 同 的 影 
mapVertices( {hk + Msglsum,k, + Msg2sum,b + Msg3sum,y} ) 向 。 文 献 [13] 给 出 一 般 的 d 取 0.85。 为 了 实验 找 出 较 合 理 的 抑 
5 Y=0:Yy 制 因子 ， 设 置 固定 隐 因 子 个 数位 5， 测 试 不 同 抑制 因子 下 产生 
Output: svdGraph 推荐 结果 ， 计 算 召 回 率 和 下 值 。 
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图 4 题目 、 摘 要 和 参考 文献 不 同 权重 下 的 召回 率 
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图 5 不 同 抑制 因子 d 下 混合 推荐 的 召回 率 
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的 权 值 ， 能 够 突出 用 户 对 重要 论文 的 操作 行为 ， 从 而 建立 的 隐 
因子 模型 更 贴近 用 户 的 个 性 化 兴趣 。 并 且 ， 选 取 更 长 的 隐 因 子 
也 会 对 推荐 结果 有 一 定 的 提升 。 从 履 盖 率 的 角度 考虑 ， 混 合 模 
型 结合 了 论文 重要 程度 和 隐 因 子 ， 提 供 的 候选 论文 比 其 他 算法 
更 具有 多 样 性 。 


Recall@M &F 
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图 6 不 同 候选 推荐 数量 对 推荐 结果 的 影响 


对 于 用 户 历 史 数据 数量 ， 设 置 动态 的 候选 推荐 数量 会 对 推 
荐 结果 产生 影响 。 如 图 5 所 示 ， 横 坐标 表示 测试 集中 根据 用 户 
不 同 操作 数量 设置 的 候选 推荐 数量 。 实 验 过 程 设置 混合 模型 的 
参数 4 =0.9 、f = 20 , 候选 推荐 数量 为 用 户 操作 的 行为 数据 ( 超 
过 100 则 设置 为 100)。 可 以 看 出 根据 用 户 的 操作 数量 选择 候选 


图 可 知 ，d 在 选取 0.1、0.5、0.8、0.9 时 召回 率 和 Fl 值 


明显 高 于 其 他 情况 ， 这 是 由 于 在 推荐 领域 用 户 个 体 主 观 兴 趣 不 
同 所 致 。 对 于 倾向 经 典 的 有 价值 的 论文 的 用 户 ， 在 论文 关系 中 
约 趋 于 中 心 的 论文 越 有 价值 ， 即 该 论文 关联 许多 其 他 论文 ， 
此 选取 区 间 [0.8,0.9] 更 合适 ， 对 于 倾向 冷门 的 新 颖 观点 的 论文 ， 


于 论文 关联 程度 低 ， 因 此 需要 设置 更 高 的 跳 转 概率 ， 即 选取 


0.1 附近 更 合适 ， 而 对 于 不 确定 的 用 户 可 以 选取 0.5。 本 文 其 他 


实验 抑 和 


央 因 子 选 取 0.9。 


为 了 评估 本 文 提 出 混合 模型 (WSVD++), 对 比 实验 选取 基 


于 内 容 (CB-CF)、 基于 引文 (cite-PR)、 基于 PPR 和 基于 SVD++ 
的 图 模型 算法 。 其 中 ,SVD++ 隐 因子 维度 为 10,，WSVD++ 隐 因 


推荐 数量 ， 不 同 数量 的 候选 推荐 对 推荐 性 能 的 影响 。 用 户 的 行 
为 数据 越 多 ， 越 能 找到 用 户 的 可 能 喜欢 的 论文 。 


4 ”结束 语 


本 文 提出 一 种 分 布 式 图 计算 的 学 术 论 文 推荐 算法 。 针 对 大 
数据 时 代 提 高 个 性 化 推荐 方法 的 精度 与 效率 的 问题 。 首 先 用 图 
模型 来 表示 用 户 和 论文 间 的 关系 ， 在 论文 关系 中 计算 论文 重要 
程度 ， 并 利用 论文 重要 程度 对 用 户 论文 关系 进行 加 权 处 理 。 然 
后 将 基于 图 模型 的 SVD++ 算 法 应 用 到 用 户 -论文 图 模型 中 产生 


子 维度 分 别 选取 10 和 20， 远 代 过 程 设置 衰减 因子 a=0.9 ， 合 


和 迭 代 在 30 次 后 收敛 。 结 果 如 表 2 所 示 。 


表 2 实验 结果 


Approach Recall@30 F Coverage 
CB-CF 18.73% 12.14% 49.55% 
cite-PR 12.38% 6.86% 28.68% 

PPR 7.45% 3.46% 22.44% 
SVD++@10 11.02% 5.10% 25.40% 
WSVD++@10 22.48% 17.03% 62.10% 
WSVD++@20 23.16% 21.37% 63.87% 


从 表 中 可 以 看 出 ， 本 文 提出 的 混合 模型 推荐 结果 的 召回 率 
为 23.16%, F 为 21.37%， 优 于 基于 内 容 的 协同 过 滤 算 法 (CB- 
CF)、 基 于 引文 的 图 算法 (cite-PR)、 其 他 基于 图 模型 的 推荐 和 


法 (PPR 


和 SVD++)。 这 说 明 用 户 操作 记录 结合 了 论文 重要 程度 


i 着。 并 且 为 了 提高 算法 的 可 扩展 的 性 ， 提 出 了 图 计算 算法 的 
分 布 式 的 实现 。 最后， 实验 结果 验证 了 本 文 提出 的 混合 算法 模 
型 有 效 性 。 
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